Meta Learning automates the search for learning algorithms. At the same time, it creates a dependency on human engineering on the meta-level, where meta learning algorithms need to be designed. In this paper, we investigate self-referential meta learning systems that modify themselves without the need for explicit meta optimization. We discuss the relationship of such systems to in-context and memory-based meta learning and show that self-referential neural networks require functionality to be reused in the form of parameter sharing. Finally, we propose fitness monotonic execution (FME), a simple approach to avoid explicit meta optimization. A neural network self-modifies to solve bandit and classic control tasks, improves its self-modifications, and learns how to learn, purely by assigning more computational resources to better performing solutions.
translated by 谷歌翻译
There are two important things in science: (A) Finding answers to given questions, and (B) Coming up with good questions. Our artificial scientists not only learn to answer given questions, but also continually invent new questions, by proposing hypotheses to be verified or falsified through potentially complex and time-consuming experiments, including thought experiments akin to those of mathematicians. While an artificial scientist expands its knowledge, it remains biased towards the simplest, least costly experiments that still have surprising outcomes, until they become boring. We present an empirical analysis of the automatic generation of interesting experiments. In the first setting, we investigate self-invented experiments in a reinforcement-providing environment and show that they lead to effective exploration. In the second setting, pure thought experiments are implemented as the weights of recurrent neural networks generated by a neural experiment generator. Initially interesting thought experiments may become boring over time.
translated by 谷歌翻译
Model-Based Reinforcement Learning (RL) is widely believed to have the potential to improve sample efficiency by allowing an agent to synthesize large amounts of imagined experience. Experience Replay (ER) can be considered a simple kind of model, which has proved extremely effective at improving the stability and efficiency of deep RL. In principle, a learned parametric model could improve on ER by generalizing from real experience to augment the dataset with additional plausible experience. However, owing to the many design choices involved in empirically successful algorithms, it can be very hard to establish where the benefits are actually coming from. Here, we provide theoretical and empirical insight into when, and how, we can expect data generated by a learned model to be useful. First, we provide a general theorem motivating how learning a model as an intermediate step can narrow down the set of possible value functions more than learning a value function directly from data using the Bellman equation. Second, we provide an illustrative example showing empirically how a similar effect occurs in a more concrete setting with neural network function approximation. Finally, we provide extensive experiments showing the benefit of model-based learning for online RL in environments with combinatorial complexity, but factored structure that allows a learned model to generalize. In these experiments, we take care to control for other factors in order to isolate, insofar as possible, the benefit of using experience generated by a learned model relative to ER alone.
translated by 谷歌翻译
强化学习者必须推广其培训经验。先前的工作主要集中在相同的培训和评估环境上。从最近引入的Crafter Benchmark(一个2D开放世界生存游戏)开始,我们引入了一套新的环境,适合评估某些代理商对以前看不见的(数量)对象的概括并快速适应(元学习)的能力。在Crafter中,通过培训1M步骤时,通过未锁定成就(例如收集资源)来评估代理商。我们表明,当前的代理商努力概括,并引入新颖的以对象为中心的代理,从而改善了强大的基准。我们还通过多个实验为未来在手工艺品上的工作提供了一般兴趣的关键见解。我们表明,仔细的超参数调整可以通过大幅度提高PPO基线代理,即使是前馈代理也可以通过依靠库存显示来解锁所有成就。我们在原始的手工环境中实现了新的最新性能。此外,当经过100万步的​​培训时,我们的调整代理几乎可以解锁所有成就。我们表明,即使删除了库存信息,复发性PPO代理也比进发料剂改进了。我们介绍Crafterood,这是一组15个新的环境,可以评估OOD概括。在Crafterood上,我们表明目前的代理无法概括,而我们的新颖中心的代理人实现了最新的OOD概括,同时也可以解释。我们的代码是公开的。
translated by 谷歌翻译
鉴于在特殊命令输入中编码的目标,目标条件的强化学习(RL)旨在学习最佳政策。在这里,我们研究了目标条件的神经网(NNS),这些神经网已经学会以特定于上下文特定的重量矩阵形式生成深度NN策略,类似于1990年代的快速体重程序员和其他方法。使用表单的上下文命令“生成实现预期回报的策略”,我们的NN生成器将对参数空间的强大探索与跨命令的概括相结合,以迭代地找到越来越更好的策略。体重共享的超级核武器和策略嵌入形式缩放了我们生成深度NN的方法。实验表明,单个学识渊博的政策生成器如何制定在培训过程中获得任何回报的政策。最后,我们在表现出竞争性能的一系列连续控制任务上评估了算法。我们的代码是公开的。
translated by 谷歌翻译
学习评估和改善政策是加强学习(RL)的核心问题。传统的RL算法学习为单个策略定义的值函数。最近探索的竞争选择是学习许多策略的单个价值功能。在这里,我们结合了基于参数的价值函数的参与者批判性架构和策略评估网络的策略嵌入,以学习评估(并从而有助于改善)的单个价值函数,以改善深度神经网络(NN)代表的任何策略。该方法产生竞争性的实验结果。在无限多个状态的连续控制问题中,我们的价值函数通过同时学习一小部分“探测状态”和从探测状态在策略返回中产生的动作的映射来最大程度地减少其预测错误。该方法以极少数状态的形式提取有关环境的重要抽象知识,足以完全指定许多政策的行为。策略仅通过改变探测状态的动作,遵循值函数的预测的梯度来改善。令人惊讶的是,只有通过分别知道如何在3和5的5个这样的国家中采取行动,才有可能克隆在游泳者V3和Hopper-V3环境中近乎最佳政策的行为。值得注意的是,我们经过评估NN策略的培训的价值功能也与政策体系结构的变化也不变:我们表明,它允许零拍学习线性策略的竞争力与培训中最佳政策竞争。我们的代码是公开的。
translated by 谷歌翻译
通过梯度下降训练的神经网络(NNS)中的线性层可以表示为一个键值存储系统,该系统存储了所有训练数据点和初始权重,并在整个培训经验中使用不差的DOT注意产生输出。虽然自1960年代以来一直在技术上都知道,但先前的工作没有有效地研究了这种形式的NN的操作,大概是由于时间和空间的复杂性和不切实际的模型大小,它们都随着训练模式的数量线性增长,这些训练模式的数量是线性的可能很大。但是,这种双重配方可以通过检查相应的注意力重量直接可视化NN如何在测试时间使用训练模式。我们对小规模监督图像分类任务进行了实验,以单任务,多任务和持续的学习设置以及语言建模,并讨论这种观点的潜力和限制,以更好地理解和解释NNS如何利用培训模式。我们的代码是公开的。
translated by 谷歌翻译
神经网络(NN)的重量矩阵(WM)是其程序。许多传统NN的程序是通过梯度下降中的某些错误函数中学到的,然后保持固定。但是,在运行时可以继续迅速修改自身的WM。原则上,这样的NN可以学习元学习,并从递归自我改善的意义上学习meta-meta-learn来学习,等等。自从90年代以来,已经提出了NN架构可能能够实施这种行为的架构,但几乎没有实践研究。在这里,我们基于快速重量程序员和密切相关的线性变压器的最新成功进行重新审视。我们提出了一个可扩展的自我参照WM(SRWM),该WM(SRWM)学会使用外部产品和Delta Update规则来修改自身。我们通过程序生成的游戏环境评估了有监督的少数学习和多任务增强学习中的SRWM。我们的实验证明了拟议的SRWM的实际适用性和竞争性能。我们的代码是公开的。
translated by 谷歌翻译
我们与最近发布的狂野基准分享我们的经验,这是一个致力于开发模型和培训策略的十个数据集的集合,这些策略对域班较强。几个实验产生了几个批判性观察,我们认为对任何未来的野外工作都是普遍的兴趣。我们的研究侧重于两个数据集:IWILDCAM和FMOW。我们展示(1)对每个评估度量进行单独的交叉验证对于两个数据集来说至关重要,(2)验证和测试性能之间的相关性可能使IWIndCAM的模型开发难以困难,(3)超级培训的次要变化困难 - 参数通过相对较大的边缘(主要是FMOW)来改善基线,(4)某些域和某些目标标签之间存在强烈的相关性(主要是IWINDCAM)之间存在强烈的相关性。据我们所知,尽管有明显的重要性,但这些数据集上没有关于这些观察结果的工作。我们的代码是公开的。
translated by 谷歌翻译
一些神经网络的输入和/或输出是其他神经网的权重矩阵。重量矩阵的间接编码或端到端压缩可以有助于规模这些方法。我们的目标是开展关于该主题的讨论,从用于性格级语言建模的经常性神经网络开始,其权重矩阵由离散余弦变换编码。我们的快速重量形式使用经常性神经网络来参数化压缩的重量。我们在enwik8数据集上呈现实验结果。
translated by 谷歌翻译